Ejercicio 2:

En este problema nos dan cuatro variables de interés: tipo de tarea, el tiempo que demora una tarea, la prioridad, y el esfuerzo.

El esfuerzo y el tiempo son numéricos, mientras que el tipo de tarea y el esfuerzo son categóricos.

La idea es que la visualización resultante sirva para priorizar las tareas según las condiciones anteriores, con la posibilidad de asignar algunas tareas para empleados senior o junior, y otras para grupos más grandes o más pequeños.

Nuestra primera idea es hacer un scatter en el que:

Esta primera gráfica no es tan eficiente ya que el esfuerzo queda supeditado al tamaño, que no permite cuantificar de manera correcta las diferencias pequeñas. Asimismo, la posición en x se "desperdicia" en una variable categórica siendo que hay otra variable numérica que podría representarse con esta, y al representarla así algunos puntos quedan solapados (uno se pierde por completo, otros dos s esolapan parcialmente).

Por lo anterior, decidimos hacer la siguiente configuración con el scatter:

Esta nueva gráfica es mucho más útil, todas las variables están asociadas a atributos visuales adecuados según lo visto en el curso. El tamaño no genera ambiguedad por estar asociado a una variable discreta -solo 3 tamaños-. Además, hay menos solapamientos entre puntos.

Si se observa la gráfica, podemos decir que al punto azul grande le asignaremos varios empleados senior por ocupar más tiempo y ser más difícil, además de tener prioridad máxima. Por contra, al punto rojo más grande abajo a la izquierda le asignaríamos unos pocos empleados junior supervisados por un senior (por lo crítico del bug). Otras configuraciones podrían ser evaluadas usando este esquema.

Ejercicio 3

Tenemos tres variables a representar: tiempo, productividad y número de empleados.

Queremos demostrar que a partir del cambio de gerente bajó la productividad y que esto estuvo asociado al número de empleados. Tenemos por tanto una relación temporal junto con una relación de correlación. Nuestra primera idea es representar las variables como una gráfica de línea así:

Si bien la gráfica anterior es interesante, nos genera un problema ya que la principal relación que queremos ver es productividad vs # de empleados. El grosor no nos da una visión precisa del número de empleados y el aumento del mismo puede ser poco apreciable si es muy pequeño. El factor temporal es importante, pero además de ser una variable ordinal también se nos presenta como una variable indicadora: antes y después del cambio de gerente. Planteamos entonces un scatter plot así:

Podemos observar en la anterior gráfica que queda muy clara la correlación negativa y el punto en el que empezó a impactar la productividad.

Ejercicio 4:

Escogimos el conjunto de datos de los pingüinos. Se tienen 3 variables categóricas: sexo, isla, especie. Se tienen 4 variables numéricas: longitud pico, longitud aleta, profundidad pico y masa corporal.

Como paso de preparación, borramos los pingunos con datos nulos. Estos no se consideran en las agregaciones porcentuales.

Descripción general

Ahora, en primer lugar, deseamos ver las relaciones de tipo 'parte de un todo' que describen las variables categóricas. Para esto, decidimos usar el gráfico de barra con las frecuencias relativas.

En este primer gráfico observamos que la especie Adelie es la más frecuente, seguida de cerca por la Gentoo. Hay una cantidad bastante menor de la especie Chinstrap.

Luego queriamos observar como se distribuyen los pingüinos en las 3 islas para lo cual implementamos el mismo tipo de grafica que el anterior para observar nuevamente una relacion de "parte de todo"

Con este grafico pudimos observar que casi la mitad de los pinguinos están en la isla Biscoe, una cantidad considerable en Dream Island y una minoría en Torgersen. No estan distribuidos de manera uniforme

Nuevamente queriamos observar la relacion 'parte de un todo' de los sexos de los punguinos y como se puede observar esta distribucion esta bastante balanceada con una ligera mayoria de pinguinos hembra

Relaciones con variables numéricas:

Hay una distribución balanceada de pingunos machos y hembras.

Luego queriamos ver las distribuciones de las variables continuas, para esto utilizamos graficos de distribucion y encontramos que el doble pico en la distribucion de la longitud de la aleta se explica con las diferencias fenotipicas de las especies de pinguinos.

Relaciones de correlación entre las variables numéricas

Luego buscamos las rlaciones en la variables numericas y pudimos ciertas distinciones claras que indicaban que una especie de pinguinos tenia una diferencia fisica significativa con las otras 2 especies de pinguinos, generando los graficos de dispercion con "grumos" o 2 grupos de aglomeraciones. Indicando las diferencias entre las relaciones en las dimensiones de los pinguinos.

Notamos una distribución curiosa en algunas de las correlaciones, como si hubieran varios clusters. Exploremos más a detalle:

Con esta exploracion mas a detalle nos dimos cuenta de que los pinguinos gentoo son fisicamente completamente diferentes a las otras 2 especies de pinguinos, esto se puede ver por las relaciones entre sus proporciones corporales las cuales no se asemejan a ninguna de las otras 2 especies.

Con el entendimiento mas profundo sobre las caracteristicas fisicas de los pinguinos y como se diferencian entre ellos, quisimos ver cual era la distribucion por especies en las 3 islas, viendo una relacion de 'Parte de todo'.

Encontramos que los pinguinos Adelie son comunes porque estan poblando varias islas, pero son la minoria siempre que hay otra especie de pinguinos en la isla. Al mismo tiempo, son los pinguinos can mayor adaptabilidad del grupo, lo cual se explica a traves de sus zonas de ocupacion.

Ejercicio 5

Escogemos esta visualización: https://www.nytimes.com/2021/03/25/learning/whats-going-on-in-this-graph-global-climate-risks.html

imagen.png

VARIABLES:

NOTAS:

El mapa muestra una relación geoespacial entre riesgos categóricos y zonas en el planeta. Las 6 categorias de riesgos se representan como colores en el mapa. Los colores únicamente indican el peligro con mayor efecto en la zona, no hace una clasificacion de probabilidad de los riesgos por zona.

No hay una escala de colores, los colores se eligen para que tengan una relación con el desastre natural que representan y para que sean facilmente diferenciables.

Ejercicio 6

Hay que representar los efectos de la perdida de los 2 empleados en mayo sobre la cantidad tickets procesados con respecto a los recibidos.

Con respecto a la grafica del ejercicio tiene mucho ruido, lo primero es que no es necesario tener los numeros sobre las barras, y el color no tiene porque tener un degradado, puede ser un color solido.

Primero, exploremos los datos:

La primera propuesta es graficar las dos tendencias de tickets recibidos y procesados.

Hacemos lo siguiente:

num. tickets: posicion y fecha: posicion x tipo de tiquete: color elemento indicador: posicion x, punteado

Esto se puede representar como una relacion de 'parte de un todo' en el cual cuando de los tickets recibidos se lograron procesar en un mes y si este porcentaje disminuye, en cuanto por ciento disminuye en promedio.

% tickets procesados: posicion y \ fecha: posicion x \ antes y despues de la salida de los empleados: color \ elemento indicador: posicion x, punteado

En esta grafica podemos ver como el espacio o el area entre ambas linea va aumentando mientras va transcurriendo el tiempo, esta area comienza su aumento en el momento en el que ambos empleados dejan la compañia. Esta es una representacion que permite ver la diferencia entre era la productividad y como cambio luego de que los 2 empleados dejaran la compañia, pero todavia se puede simplificar y condensar aun mas, facilitando su interpretacion y mostrando mas claramente el efecto de la salida de los trabajadores.

En esta grafica se esta representando la relacion de "parte de todo" de de los tickets procesados con respecto a los tiquets recibidos, pero en lugar de hacerlo con barra lo hacemos con una linea para mostrar la continuidad de los datos temparales y lo que se puede observar es una clara disminucion en el porcentaje de tickets procesados al mes con respecto a los tiquets recibidos. mientras mayor es la pendiente mayor es la caida o la subida en capacidad de procesamiento.

Lo otro que se puede observar es que antes de la salida de los 2 trabajadores la capacidad dde procesamiento era muy estable, y luego de la salida comencia a cmportarse de una manera mas erratica e inestable.

Ejercicio 7

Primero probamos con gráficos de barras.

Insights

Con esta gráfica de comparacion de barras buscamos facilitar la visualizacion de los cambios en la distribucion de los datos antes y despues del programa de promocion cientifica. Y lo que se pudo encontrar es que el programa aumenta el interes en la ciencia pero no disminuye el desagrado, afecta principalmente al grupo que le es "indiferente" a la ciencia.

Esto nos habla de que el programa es realmente exitoso ya que el porcentaje de jovenes realmente emocionados por la ciencia se duplico, con respecto a este mismo porcentaje previo al programa de promocion cientifica.

Algo que esta visualizacion tambien permite observar es un ligero aumento en el porcentaje de jovenes que no estan interesados o que la ciencia los aburre, asumiendo que el mayor impacto estuvo en el grupo que respondio "OK" en la primer encuesta, podriamos decir que si a un joven no le interesa la ciencia este programa no va a hacerlo cambiar de opinion, pero si el joven tiene una posicion neutral es muy probable que el programa lo haga emocionarse e interesarse mucho mas por las cuestiones cientificas pero con un ligero riesgo de causar el efecto contrario y generarle una respuesta de aburrimiento con respecto a la ciencia.

Consideramos que este grafico es una mejora con respecto al grafico original propuesto en el ejercicio, ya que en nuestro grafico la informacion esta condensada en un solo grafico de barras que es mas interpretable, y reduce la cantidad de texto necesario en pantalla para poder leer e interpretar los datos. Ademas no hace uso de relaciones de area que no son precisas favoreciendo el uso de un atributo de longitud vertical, el cual es mucho mas preciso.